Например, Бобцов

Метод многомодального машинного сурдоперевода для естественного человеко-машинного взаимодействия

Аннотация:

Предмет исследования. Исследована возможность повышения надежности автоматической системы распознавания как отдельных жестов, так и жестового языка, за счет использования наиболее информативных пространственно-временных визуальных признаков. Метод. Представленный метод автоматического распознавания жестовой информации основан на интегральной нейросетевой модели, которая анализирует пространственно-временные визуальные признаки: 2D и 3D расстояния от лица до руки; площадь пересечения лица и руки; конфигурацию руки; гендерную и возрастную информацию о дикторе. Для извлечения информации о конфигурации руки разработана нейросетевая модель на основе архитектуры 3DResNet-18 для получения гендерной и возрастной информации. В метод встроены нейросетевые модели из программной платформы Deepface. Основные результаты. Предложенный метод апробирован на данных многомодального корпуса элементов жестового языка TheRuSLan, результаты которого достигают точности распознавания жестов 91,14 %. Практическая значимость. Результаты исследования позволяют повысить точность и робастность не только машинного сурдоперевода, но и естественность человеко-машинного взаимодействия в целом. Полученные результаты могут найти применение в сферах социального обслуживания медицины и образования, в робототехнике и в центрах обслуживания населения.

Ключевые слова:

Статьи в номере